智能论文笔记

ZSON: Zero-Shot Object-Goal Navigation using Multimodal Goal Embeddings

Arjun Majumdar , Gunjan Aggarwal , Bhavika Devnani , Judy Hoffman , Dhruv Batra

分类：计算机视觉 | 机器学习 | 机器人

2022-06-24

我们提出了一种可扩展的方法，用于学习开放世界对象目标导航（ObjectNAV） - 要求虚拟机器人（代理）在未探索的环境中找到对象的任何实例（例如，“查找接收器”）。我们的方法完全是零拍的 - 即，它不需要任何形式的objectNav奖励或演示。取而代之的是，我们训练图像目标导航（ImagenAv）任务，在该任务中，代理在其中找到了捕获图片（即目标图像）的位置。具体而言，我们将目标图像编码为多模式的语义嵌入空间，以在未注释的3D环境（例如HM3D）中以大规模训练语义目标导航（Senanticnav）代理。训练后，可以指示Semanticnav代理查找以自由形式的自然语言描述的对象（例如，“接收器”，“浴室水槽”等），通过将语言目标投射到相同的多模式，语义嵌入空间中。结果，我们的方法启用了开放世界的ObjectNAV。我们在三个ObjectNAV数据集（Gibson，HM3D和MP3D）上广泛评估了我们的代理商，并观察到成功的4.2％-20.0％的绝对改进。作为参考，这些收益与2020年至2021年Objectnav挑战赛竞争对手之间成功的5％改善相似或更好。在开放世界的环境中，我们发现我们的代理商可以概括为明确提到的房间（例如，“找到厨房水槽”）的复合说明，并且何时可以推断目标室（例如，”找到水槽和炉子”）。

translated by 谷歌翻译